- 모델 성능 저하 추적
- 공유 평가 워크플로우 조정
리더보드 생성
리더보드는 Weave UI 또는 프로그래밍 방식으로 생성할 수 있습니다.UI
Weave UI에서 직접 리더보드를 생성하고 사용자 지정하려면:- Weave UI에서 Leaders 섹션으로 이동합니다. 보이지 않는 경우 More → Leaders를 클릭합니다.
- &#xNAN;+ New Leaderboard를 클릭합니다.
- Leaderboard Title 필드에 설명적인 이름을 입력합니다(예:
summarization-benchmark-v1
). - 선택적으로 이 리더보드가 비교하는 내용을 설명하는 설명을 추가합니다.
- 열 추가하여 표시할 평가 및 지표를 정의합니다.
- 레이아웃에 만족하면 리더보드를 저장하고 게시하여 다른 사람들과 공유합니다.
열 추가
리더보드의 각 열은 특정 평가의 지표를 나타냅니다. 열을 구성하려면 다음을 지정합니다:- 평가: 드롭다운에서 평가 실행을 선택합니다(이전에 생성된 것이어야 함).
- 점수 산정자: 해당 평가에 사용된 점수 산정 함수를 선택합니다(예:
jaccard_similarity
,simple_accuracy
). - 지표: 표시할 요약 지표를 선택합니다(예:
mean
,true_fraction
등).
⋯
)를 클릭합니다. 다음과 같은 작업을 할 수 있습니다:
- Move before / after – 열 순서 변경
- Duplicate – 열 정의 복사
- Delete – 열 제거
- Sort ascending – 리더보드의 기본 정렬 설정(다시 클릭하면 내림차순으로 전환)
Python
완전하고 실행 가능한 코드 샘플을 찾고 계신가요? End-to-end Python example을 참조하세요.
-
테스트 데이터셋을 정의합니다. 내장된
Dataset
을 사용하거나 입력 및 대상 목록을 수동으로 정의할 수 있습니다: -
하나 이상의 scorers를 정의합니다:
-
Evaluation
를 생성합니다: -
평가할 모델을 정의합니다:
-
평가를 실행합니다:
-
리더보드를 생성합니다:
-
리더보드를 게시합니다.
-
결과를 검색합니다:
End-to-End Python 예제
다음 예제는 Weave Evaluations를 사용하여 리더보드를 생성하고 공유 데이터셋에서 세 가지 요약 모델을 사용자 정의 지표로 비교합니다. 작은 벤치마크를 생성하고, 각 모델을 평가하고, Jaccard similarity로 각 모델의 점수를 매기고, 결과를 Weave 리더보드에 게시합니다.리더보드 보기 및 해석
스크립트 실행이 완료된 후 리더보드를 확인합니다:- Weave UI에서 Leaders 탭으로 이동합니다. 보이지 않는 경우 More를 클릭한 다음 Leaders를 선택합니다.
- 리더보드 이름을 클릭합니다—예:
Summarization Model Comparison
.
model_humanlike
, model_vanilla
, model_messy
)을 나타냅니다. mean
열은 모델의 출력과 참조 요약 간의 평균 Jaccard 유사도를 보여줍니다.

model_humanlike
이 약 46%의 중복으로 가장 좋은 성능을 보입니다.model_vanilla
(단순 절단)는 약 21%를 얻습니다.model_messy
의도적으로 나쁜 모델은 약 2%의 점수를 받습니다.